«Норникель» сделал важный шаг в развитии искусственного интеллекта, опубликовав MetalGPT-1 — большую языковую модель (LLM) с 32 миллиардами параметров.
Особенность MetalGPT-1 не только в том, что это доменная модель. Главное — на каких данных она обучалась. В её основе — миллионы закрытых технологических документов, касающихся металлургии и добычи. Это не обычные тексты в привычном для машинного обучения понимании.
Документы вроде технологических протоколов, регламентов, результатов научно-исследовательских и опытно-конструкторских работ (НИОКР), а также строительная и проектная документация представляют собой формализованные фрагменты производственного мира. Они содержат язык процессов, цепочек операций, ограничений и рисков.
Обучая LLM на таком специфическом корпусе данных, «Норникель» фактически создает уникальный «слой данных реальности» (data-reality layer), который универсальные языковые модели просто не могут «увидеть» или интерпретировать.
Это открывает новую парадигму в разработке ИИ. Вместо того чтобы просто адаптировать существующие GPT-модели под конкретный домен, компании начинают строить ИИ вокруг индустриального мира, используя его как первичный источник данных.
MetalGPT-1 — это лишь первый пример такого подхода. В будущем мы увидим аналогичные модели для химической промышленности, логистики, энергетики, строительства и других отраслей. Каждая из них обладает собственным уникальным языком, набором данных и своей «реальностью».
Это знаменует важный переход: доменно-ориентированные LLM перестают быть просто экспериментами и становятся частью критически важной инфраструктуры.